机器学习技术的兴起激发了电子设计自动化(EDA)中应用的繁荣,有助于提高芯片设计中的自动化程度。然而,手动制作的机器学习模型需要广泛的人类专业知识和巨大的工程努力。在这项工作中,我们利用神经结构搜索(NAS)来自动开发高质量的神经架构进行可排卵预测,这有助于引导细胞放置到可路由解决方案。我们的搜索方法支持各种操作和高度灵活的连接,导致架构与所有先前的人工制作模型显着不同。大型数据集上的实验结果表明,我们的自动生成神经架构明显优于多个代表手动制作的解决方案。与手动制作型号的最佳案例相比,NAS产生的模型达到了5.85%的kendall的$ \ tau $,以预测DRC违规的网数和ROC曲线(ROC-AUC)在DRC热点检测下的2.12%面积。此外,与人工制作的模型相比,易于花数周开发,我们的高效NAS方法只需0.3天即可完成整个自动搜索过程。
translated by 谷歌翻译
在线零售平台,积极检测交易风险至关重要,以提高客户体验,并尽量减少财务损失。在这项工作中,我们提出了一种可解释的欺诈行为预测框架,主要由探测器和解释器组成。 Xfraud探测器可以有效和有效地预测进货交易的合法性。具体地,它利用异构图形神经网络来从事务日志中的信息的非渗透键入实体中学习表达式表示。 Xfraud中的解释器可以从图表中生成有意义和人性化的解释,以便于业务部门中的进一步进程。在我们对具有高达11亿节点和37亿边缘的实际交易网络上的Xfraud实验中,XFraud能够在许多评估度量中倾销各种基线模型,同时在分布式设置中剩余可扩展。此外,我们表明,XFraud解释者可以通过定量和定性评估来显着帮助业务分析来产生合理的解释。
translated by 谷歌翻译
Voice anti-spoofing systems are crucial auxiliaries for automatic speaker verification (ASV) systems. A major challenge is caused by unseen attacks empowered by advanced speech synthesis technologies. Our previous research on one-class learning has improved the generalization ability to unseen attacks by compacting the bona fide speech in the embedding space. However, such compactness lacks consideration of the diversity of speakers. In this work, we propose speaker attractor multi-center one-class learning (SAMO), which clusters bona fide speech around a number of speaker attractors and pushes away spoofing attacks from all the attractors in a high-dimensional embedding space. For training, we propose an algorithm for the co-optimization of bona fide speech clustering and bona fide/spoof classification. For inference, we propose strategies to enable anti-spoofing for speakers without enrollment. Our proposed system outperforms existing state-of-the-art single systems with a relative improvement of 38% on equal error rate (EER) on the ASVspoof2019 LA evaluation set.
translated by 谷歌翻译
最近,音频驱动的会说话的面部视频产生引起了广泛的关注。但是,很少有研究能够解决这些会说话的面部视频的情感编辑问题,并具有连续可控的表达式,这是行业中强烈的需求。面临的挑战是,与语音有关的表达和与情感有关的表达通常是高度耦合的。同时,由于表达式与其他属性(例如姿势)的耦合,即在每个框架中翻译角色的表达可能会同时改变头部姿势,因此传统的图像到图像翻译方法无法在我们的应用中很好地工作。培训数据分布。在本文中,我们提出了一种高质量的面部表达编辑方法,用于谈话面部视频,使用户可以连续控制编辑视频中的目标情感。我们为该任务提供了一个新的视角,作为运动信息编辑的特殊情况,我们使用3DMM捕获主要的面部运动和由StyleGAN模拟的相关纹理图,以捕获外观细节。两种表示(3DMM和纹理图)都包含情感信息,并且可以通过神经网络进行连续修改,并通过系数/潜在空间平均轻松平滑,从而使我们的方法变得简单而有效。我们还引入了口腔形状的保存损失,以控制唇部同步和编辑表达的夸张程度之间的权衡。广泛的实验和用户研究表明,我们的方法在各种评估标准中实现了最先进的表现。
translated by 谷歌翻译
对话中的情感认可(ERC)旨在检测给定对话中每种话语的情感。新提出的ERC模型利用了预培训的语言模型(PLM),并具有预训练和微调的范式,以获得良好的性能。但是,这些模型很少利用PLM的优势,并且对于缺乏明确的情感表达的对话而表现不佳。为了充分利用与话语中情感表达相关的潜在知识,我们提出了一种新颖的ERC模型Cisper,并使用新的及时和语言模型(LM)调整范式提出。具体而言,Cisper配备了及时融合与对话者的话语相关的上下文信息和常识,以更有效地实现ERC。我们的广泛实验表明,Cisper在最新的ERC模型中的出色表现以及利用这两种重要及时及时提高信息的有效性。为了方便地重现我们的实验结果,Cisper的Sourcecode和数据集已在https://github.com/deqingyang/cisper上共享。
translated by 谷歌翻译
主动扬声器检测(ASD)系统是用于分析多对话对话的重要模块。他们的目的是在任何给定时间都在视觉场景中检测哪些扬声器或没有说话。关于ASD的现有研究不同意主动演讲者的定义。我们阐明了这项工作的定义,需要在音频和视觉演讲活动之间进行同步。这种定义的澄清是由我们的广泛实验激发的,我们发现现有的ASD方法无法在模拟视听同步建模时无法将非同步视频分类为主动语言。为了解决这个问题,我们提出了一种跨模式对比度学习策略,并在注意模块中应用位置编码,以使受监督的ASD模型利用同步提示。实验结果表明,我们的模型可以成功地检测出不同步的口语,因为它不说话,以解决当前模型的局限性。
translated by 谷歌翻译
EDA技术的停滞根源不足以重用。实际上,可能需要从头开始重复构建非常相似的仿真或优化结果。这激发了我对使用机器学习(ML)向EDA引入更多“智能”的研究,该研究探讨了基于先前数据的设计流中的复杂相关性。除了设计时间外,我还提出了ML解决方案,以通过在运行时协助电路管理来提高IC性能。在本文中,我提出了多个快速而准确的ML模型,这些模型涵盖了从寄存器转移级别(RTL)到签名的各种芯片设计阶段,解决了有关功率,时机,互连,IR Drop,drop,ir drop,drop,ir drop,drop,ir drop,drop,ir drop,soluts compoins coble compoins compoins compoins corge corge。路线和设计流调整。针对RTL阶段,我提出了一个全自动的功率建模框架Apollo。它通过提取最相关的信号来构建准确的人均功率模型。该模型可以在芯片上进一步实施,用于运行时电源管理,并以前所未有的低硬件成本。针对栅极级的网表,我将net2提交了置换后线长度的早期估计。它进一步实现了无实际物理设计信息的更准确的计时分析。针对电路布局,我将介绍Routenet进行早期路线预测。作为第一个基于深度学习的路由估计器,后来的作品广泛采用了其中提出的某些功能萃取和模型设计原理。我还向PowerNet提出了快速ir降低估计。它通过定制的CNN体​​系结构捕获有关电源分配的空间和时间信息。最后,除了针对单个设计步骤外,我还提出拳头以在逻辑合成和物理设计期间有效调整设计流参数。
translated by 谷歌翻译
恢复程序的呼叫图对于基于流程间分析任务和应用程序至关重要。核心挑战是识别间接呼叫的目标(即,间接分支机构)。由于二进制文件中的信息丢失,如果目标程序以二元形式为二元形式,则变得更具挑战性。二进制文件的现有间接Callee识别解决方案都具有高误报和负面,使呼叫图不准确。在本文中,我们提出了一种基于暹罗神经网络的新解决方案,受到质疑答案应用的进步的启发。关键洞察力是,神经网络可以学习通过理解其上下文,即附近呼叫和分支机构的指示是间接代表的潜在目标。在此洞察力之后,我们首先预处理目标二进制文件,以提取电话和分支的上下文。然后,我们构建适用于汇编语言的自定义自然语言处理(NLP)模型。此外,我们收集了丰富的呼叫和分支,并将其上下文与NLP模型嵌入,然后培训暹罗网络和分类器以回答电呼叫路上的问题。我们已经实施了Inclelee的原型,并在几组目标上进行了评估。评价结果表明,我们的解决方案可以将手段与F1措施相匹配93.7%,召回的93.8%,精度为93.5%,比最先进的解决方案好得多。为了展示其有用性,我们将iCallee应用于两个特定的应用 - 二进制代码相似性检测和二进制程序硬化,并发现它可以大大提高最先进的解决方案。
translated by 谷歌翻译
Wasserstein barycenter, built on the theory of optimal transport, provides a powerful framework to aggregate probability distributions, and it has increasingly attracted great attention within the machine learning community. However, it suffers from severe computational burden, especially for high dimensional and continuous settings. To this end, we develop a novel continuous approximation method for the Wasserstein barycenters problem given sample access to the input distributions. The basic idea is to introduce a variational distribution as the approximation of the true continuous barycenter, so as to frame the barycenters computation problem as an optimization problem, where parameters of the variational distribution adjust the proxy distribution to be similar to the barycenter. Leveraging the variational distribution, we construct a tractable dual formulation for the regularized Wasserstein barycenter problem with c-cyclical monotonicity, which can be efficiently solved by stochastic optimization. We provide theoretical analysis on convergence and demonstrate the practical effectiveness of our method on real applications of subset posterior aggregation and synthetic data.
translated by 谷歌翻译
近年来,FilterBank学习已成为各种音频相关机器学习任务的日益流行的策略。这部分是由于其发现可以在下游处理中利用的任务特定音频特性的能力。它也是用于解决各种音频应用的几乎普遍的深度学习方法的自然延伸。在这项工作中,研究了前端滤波器学习模块的若干变体进行钢琴转录,这是一个具有挑战性的低级音乐信息检索任务。我们建立在标准钢琴转录模型上,仅修改特征提取阶段。滤波器组件设计成使得其复杂过滤器是具有长接收领域的无限制的1D卷积核。额外的变化采用Hilbert变换以使滤波器本质上分析并应用变分差以促进滤波器稀疏性。在所有实验中比较转录结果,我们提供了对滤波器的可视化和分析。
translated by 谷歌翻译